The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online.
translated by 谷歌翻译
We present a noisy channel generative model of two sequences, for example text and speech, which enables uncovering the association between the two modalities when limited paired data is available. To address the intractability of the exact model under a realistic data setup, we propose a variational inference approximation. To train this variational model with categorical data, we propose a KL encoder loss approach which has connections to the wake-sleep algorithm. Identifying the joint or conditional distributions by only observing unpaired samples from the marginals is only possible under certain conditions in the data distribution and we discuss under what type of conditional independence assumptions that might be achieved, which guides the architecture designs. Experimental results show that even tiny amount of paired data (5 minutes) is sufficient to learn to relate the two modalities (graphemes and phonemes here) when a massive amount of unpaired data is available, paving the path to adopting this principled approach for all seq2seq models in low data resource regimes.
translated by 谷歌翻译
我们提出了一种基于事件的降雪算法,称为EBSNOR。我们开发了一种技术,可以使用基于事件的相机数据来测量像素上雪花的停留时间,该数据用于进行Neyman-Pearson假设测试,以将事件流分为雪花和背景事件。在一个名为udayton22ebsnow的新数据集上验证了拟议的EBSNOR的有效性,该数据集由前面事件的摄像机组成,该相机在汽车中驾驶雪中,并在周围车辆周围手动注释的边界盒。在定性上,Ebsnor正确地标识了与雪花相对应的事件;并且在定量上,EBSNOR预处理的事件数据改善了基于事件的CAR检测算法的性能。
translated by 谷歌翻译
在本文中,我们解决了人类3D形状序列的比较和分类的任务。随着时间的推移,人类运动的非线性动力学和表面参数化的变化使这项任务非常具有挑战性。为了解决这个问题,我们建议将3D形状序列嵌入无限的尺寸空间,即Varifolds的空间,并具有来自给定的正定核的内部产品。更具体地说,我们的方法涉及两个步骤:1)表面表示为varifolds,该表示形式将指标等效到刚体运动,而不是参数化的不变性; 2)3D形状的序列由其无限尺寸Hankel矩阵得出的革兰氏矩阵表示。两个人类的两个3D序列的比较问题是作为两个革兰氏赫克矩阵的比较。关于CVSSP3D和DYNA数据集的广泛实验表明,我们的方法在3D人类序列运动检索中与最新的方法具有竞争力。实验代码可在https://github.com/cristal-3dsam/humancomparisonvarifolds上获得。
translated by 谷歌翻译
在全球范围内消除语言障碍的目标的驱动下,机器翻译已巩固自己是当今人工智能研究的关键重点。但是,这样的努力围绕着一小部分语言结合在一起,留下了绝大多数低资源的语言。在确保安全,高质量的结果的同时,在牢记道德考虑的同时,打破200个语言障碍需要什么?没有留下的语言,我们首先通过与母语人士的探索性访谈来解决对低资源语言翻译支持的必要性来应对这一挑战。然后,我们创建了旨在缩小低资源和高资源语言之间的性能差距的数据集和模型。更具体地说,我们开发了一种有条件的计算模型,基于专家的稀疏混合物,该模型经过针对针对低资源语言量身定制的新颖有效的数据挖掘技术培训的。我们提出了多次建筑和培训改进,以抵消数千个任务的培训。至关重要的是,我们使用人类翻译的基准,Flores-200评估了40,000多种不同的翻译方向的性能,并将人类评估与新型毒性基准相结合,涵盖Flores-200的所有语言,以评估翻译安全性。我们的模型相对于先前的最新技术,实现了44%BLEU的改善,为实现通用翻译系统奠定了重要的基础。最后,我们开源此工作中描述的所有贡献,可在https://github.com/facebookresearch/fairseq/tree/nllb上访问。
translated by 谷歌翻译
负数在数学中至关重要。它们不需要描述统计实验,因为这些实验是根据积极概率表达的。首先定义了香农信息,以表征经典概率分布的信息不确定性。但是,未知为什么有限样品空间上有两个以上随机变量存在负面信息。我们首先显示三个随机变量的否定香农共同信息意味着其联合分布的贝叶斯网络表示。然后,我们显示与负面信息的固有兼容性是具有量子实现的贝叶斯网络的通用。这进一步暗示了一种新型的依赖空间的非局部性。目前的结果为负面的香农信息提供了独立于设备的见证。
translated by 谷歌翻译
国际危机如何展开?我们将国际关系概念化为对手之间的战略国际象棋游戏,并开发了一种系统的方法,以准确且一致的历史准确,一致地测量碎片,移动和gam。我们基于国际危机行为(ICB)项目的非常高质量的叙事语料库,介绍了一个名为ICBE的国际事件的新本体和数据集。我们证明,ICBE的覆盖范围,召回和精度比现有数据集的现有状态更高,并进行了两项关于古巴导弹危机(1962)和Crimea-Donbas危机(2014)的详细案例研究。我们进一步介绍了两个新的事件可视化(事件Icongraphy和危机地图),这是一种使用自然语言处理(Sythnetic叙述)测量事件召回的自动基准,以及用于客观测量事件精确度的本体论重建任务。我们在伴侣网站www.crisisevents.org和github存储库中提供数据,在线附录,复制材料以及可视化的可视化材料和可视化。
translated by 谷歌翻译
深度神经网络(DNN)越来越多地部署在诸如个人医疗设备和自动驾驶汽车等安全关键系统中。在基于DNN的系统中,由于DNN推理的故障可能导致错误预测和安全危险,因此错误弹性是一个顶级优先级。对于资源受限边缘设备对延迟关键的DNN推断,它是非应用传统的冗余基于故障公差技术。在本文中,我们提出了合适的方法,通过部署细粒度可训练的激活功能来增强DNN的误差弹性的低成本方法。主要思想是通过神经元 - 明亮的激活功能精确地绑定每个单独神经元的激活值,以便它可以防止网络中的故障传播。为避免复杂的DNN模型重新培训,我们建议将精度培训和恢复力培训解耦,并开发轻量级训练阶段,以了解这些激活功能的精确界限。关于广泛使用的DNN模型(如AlexNet,VGG16和Reset50)的实验结果表明,装配优惠的最先进的研究(如Clip-Act和Ranger)在增强DNN误差弹性方面,在添加可管理的同时增加了各种故障率运行时和内存空间开销。
translated by 谷歌翻译
神经网络权重的对抗性比特翻转攻击(BFA)可以通过翻转非常少量的比特来导致灾难性的精度下降。先前比特翻转攻击技术的主要缺点是他们对测试数据的依赖。包含敏感或专有数据的应用程序通常是不可能的。在本文中,我们提出了盲目数据侵犯比特 - 翻转攻击(BDFA),一种新颖的技术,使BFA能够无任何访问训练或测试数据。这是通过优化合成数据集来实现的,该数据集被设计为匹配跨网络的不同层和目标标签的批量标准化的统计数据。实验结果表明,BDFA可以显着降低75.96 \%至13.94 \%的resnet50的准确性,只有4位翻转。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译